#kv cache

ariel reyez romero

5天前

google今天这篇2025年4月的论文居然引发了存储的下跌，那我们就再重读一下： KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法，本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度，而是重新分配信息密度。普通部分用极低比特表示，异常值单独保留更高精度。同时不再逐元素处理，而是以向量为单位编码，因为 attention 本身就是内积结构。关键的是，它的误差已经贴近信息论下界（香农极限），也就是说压缩效率已经非常接近理论极限。论文里给出的结果，大致是 4 到 4.5 倍的压缩，性能几乎没有明显损失。效果很明显，但后续再压缩而不损伤性能的可能性已经很小。基于大科技的内部研发流程，论文的方法及可能对模型产生的优化效果很可能已经被工程分阶段吃掉了。比方说，低比特量化早就被用起来了，从 int8 到 int4，再到更低精度，主流模型在推理侧基本都在用。异常值单独处理这件事也不是新东西，SmoothQuant、AWQ 这些方法本质上都在做类似的事情。KV cache 本身的压缩、滑窗、分层缓存，在大模型里也已经是常规配置。真正还没完全落地的，是论文里更极致的那一部分，比如向量量化，以及更接近信息论极限的编码方式。这些方法的问题不是原理，而是工程实现，GPU 不友好，延迟控制难，稳定性和泛化也更复杂，所以可能需要更长时间实现。如果一定要拍脑袋猜一下论文已经落地和还没落地的部分可能有多少的话，大致可能是这么个情况：最早的 KV cache 是 1 倍成本，简单量化之后可以做到 2 到 3 倍压缩，加上异常值处理可以到 3 到 4 倍，论文再往前推一点，大约到 4 到 4.5 倍。也就是说，大部分红利已经被拿走了，剩下的提升空间不大，而且代价越来越高。这背后的原因也很清楚。前期压缩是在去掉冗余信息，后面面对的是有效信息，再压就会直接影响模型能力。误差不再是平滑变化，而是到某个点之后快速恶化。实现难度也不是线性增长，而是明显抬升。从模型表现可以反推，现在的主流模型已经在用这些技术。长上下文能力、推理成本下降、性能稳定，这些现象本身就说明 KV cache 的效率已经被大幅优化。像 Google 这种级别的团队，大概率已经实现了低比特量化、异常值处理和一部分 KV 压缩。也就是说，如果说google的这篇论文对存储可能有影响的话，其大部分的影响已经被体现了出来，还没体现出来的部分，其实施难度也会较之前更大。更重要的是，这篇论文的意义不在于多省了多少内存，而在于给出了一个边界。KV cache 压缩这条路已经接近极限，剩下的提升空间很有限。接下来真正能带来变化的，不太可能再来自压缩本身，而是需要找到其他的路径。

#谷歌 #论文 #存储 #kv cache #大模型 #内存消耗 #信息论 #数据压缩 #精度 #向量编码 #attention #误差

7个月前

说一个在前司的观察：搞应用的，天天手动拼 prompt、管理上下文，去提高prompt cache 命中率，都快卷的没招了，实际就是在模拟“状态”。这全赖底层的推理 API 还是最原始的 stateless 形态。所以我有一个强烈的预感：下个能掀起波澜的 AI 产品，会是一个深度结合推理和应用层的怪物，把状态管理、KV Cache 复用做到极致，当别人还在为优化 10% 的 prompt 成本而沾沾自喜时，它在推理层通过“降维打击”的方式，用更少的成本获得了 10 倍的性能。从此之后再也不会有人认为 AI 应用是简单的套壳了

#AI产品 #推理API #状态管理 #kv cache #降维打击

7个月前

提到KV Cache, 我以前只能想到Redis. 🫠今天终于认真了解了KV Cache, 明白了为什么KV Cache是现在LLM推理性能的最关键的bottleneck。以下是我的take away～🤓

#kv cache #LLM推理 #性能瓶颈 #Redis #技术学习

8个月前

#学以致用我打算今天把Manus分享的KV Cache技巧用起来。目前数据如下：

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#kv cache #Manus #技巧 #学以致用 #数据

8个月前

全文在公众号，文末有一段关于 kv cache 原理的科普强烈推荐读一读，对理解 llm 推理有帮助

#kv cache #LLM #推理 #原理科普